03. 练习:解析策略
练习:解析策略
策略决定了智能体如何根据当前状态选择动作。换句话说,它指定了智能体如何对环境提供的情形做出响应。
思考下上节课的回收机器人 MDP。

确定性策略:示例
示例确定性策略 \pi: \mathcal{S}\to\mathcal{A} 可以指定为:
\pi(\text{low}) = \text{recharge}
\pi(\text{high}) = \text{search}
在这种情况下,
- 如果电池电量很低,智能体选择充电。
- 如果电池电量很高,智能体选择搜索易拉罐。
问题 1
思考另一个确定性策略 \pi: \mathcal{S}\to\mathcal{A},其中:
\pi(\text{low}) = \text{search}
\pi(\text{high}) = \text{search}
SOLUTION:
- 如果状态是_电量很低_,智能体选择动作_搜索_。
- 智能体将在每个时间步都_搜索_易拉罐(无论电量是_很低_ 还是 _很高_)。
随机性策略:示例
示例随机性策略 \pi: \mathcal{S}\times\mathcal{A}\to [0,1] 可以指定为:
\pi(\text{recharge}|\text{low}) = 0.5
\pi(\text{wait}|\text{low}) = 0.4
\pi(\text{search}|\text{low}) = 0.1
\pi(\text{search}|\text{high}) = 0.9
\pi(\text{wait}|\text{high}) = 0.1
在这种情况下,
- 如果电池电量很低,智能体充电的概率是 50%,等待易拉罐的概率是 40%,搜索易拉罐的概率是 10%。
- 如果电池电量很高,智能体搜索易拉罐的概率是 90%,等待易拉罐的概率是 10%。
问题 2
思考另一个不同的随机性策略 \pi: \mathcal{S}\times\mathcal{A}\to [0,1],其中:
\pi(\text{recharge}|\text{low}) = 0.3
\pi(\text{wait}|\text{low}) = 0.5
\pi(\text{search}|\text{low}) = 0.2
\pi(\text{search}|\text{high}) = 0.6
\pi(\text{wait}|\text{high}) = 0.4
SOLUTION:
- 如果电池电量_很低_,智能体最有可能决定_等待_易拉罐。